昨天完成了Python與VS Code的環境建置後,今天要介紹兩個在資料分析中最常用的套件:pandas和matplotlib。這兩個套件是「資料處理」與「視覺化」的核心工具,熟練的使用它們可以大幅提升分析效率。
首先是pandas套件,它是Python的資料處理工具,能把資料表格化為DataFrame,方便我們讀取、清理與操作資料。
舉例來說,如果我們下載了新北市人口年齡分配的CSV檔,只要一行程式碼就能讀進來:
import pandas as pd
df = pd.read_csv("example.csv")
print(df.head())
這樣就能看到資料的前幾列,並用df.info()檢查欄位型態,用df.describe()了解數值統計分布。pandas也提供篩選、分組、排序、統計等功能,幾乎涵蓋了所有資料處理需求,非常適合用來整理公開資料。
接著是matplotlib,它是最常用的視覺化套件,可以畫折線圖、長條圖、散佈圖等。與pandas搭配使用,幾乎可以直接把整理好的資料畫成圖表。
今天的目標是先安裝好套件。
安裝方法在終端機輸入:pip3 install pandas matplotlib seaborn plotly
安裝完成後,可以看到以下結果。